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Resume. Nous nous interessons au probleme de la minimisation de I’erreur relative 
moyenne dans le cadre des modeles de regression. Nous montrons que I’optimisation de 
ce critere est equivalente a la minimisation de I’erreur absolue par regressions ponderees 
et que I’approche par minimisation du risque empirique est, sous certaines hypotheses, 
consistante pour la minimisation de ce critere. 
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Abstract. We study in this paper the consequences of using the Mean Absolute Per¬ 
centage Error (MAPE) as a measure of quality for regression models. We show that Ending 
the best model under the MAPE is equivalent to doing weighted Mean Absolute Error 
(MAE) regression. We also show that, under some asumptions, universal consistency of 
Empirical Risk Minimization remains possible using the MAPE. 
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1 Introduction 


Nous etudions le cadre classique des regressions, en supposant des couples d’observations 
Z = (A, Y), a valeurs dans A x M ou A est un espace muni d’une metrique. La qualite 
d’un modUe g (function definie sur A et a valeurs dans M) est mesuree a partir d’une 
function de perte I, qui est classiquement les moindres carres (MSE: Mean Sguare Error), 
I’erreur absolue (MAE: Mean Absolute Error), ou I’erreur relative moyenne (MAPE: Mean 
Absolute Percentage Error): 
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avec les conventions que pour tout a7^0,^ = ooet^ = l. Le risque d’un predicteur g 
est defini comme I’esperance de la perte: Li{g) = K{l{g{X),Y)). Le risque empirique est 
alors la moyenne empirique de la fonction de perte calculee sur I’ensemble d’apprentissage: 
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L’enjeu pratique consiste a determiner comment minimiser LMAPEid)- D’un point de 
vue theorique, nous nous sommes interesses a la consistance de la methode de minimisation 
du risque empirique (ERM) dans le cas de la MAPE. 

2 Resolution pratique 

D’un point de vue pratique, le probleme consiste a minimiser LMAPE{g)N sur une classe 
de modeles G^, ce qui revient a resoudre: 
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En considerant les quotients comme des poids, ce probleme pent etre vu comme un 

I ^i\ 

cas particulier de la regression mediane (elle-meme etant un cas particulier des regressions 
quantiles) qui minimise I’erreur absolue. Par consequent, toute implementation des 
regressions quantiles permettant I’utilisation de ponderations pent etre utilisee pour trou- 
ver le modele lineaire minimisant la MAPE. C’est par exemple le cas de la librairie R 
quant reg [5]. 


3 Considerations theoriques 

D’un point de vue theorique, nous nous sommes interesses a la consistance des strategies 
d’apprentissage lorsque la fonction de perte est la MAPE. Plus precisement, pour une 
function de perte I, nous definissons L* = infgLi{g), ou le minimum est calcule sur 
I’ensemble des functions mesurables de X dans M et notons L*q = inf^gc Li{g), ou G est 
une classe de modeles. 

Dans ce travail, nous nous interessons a la methode de minimisation du risque em¬ 
pirique (ERM), pour lequel gi^N = argmin^gGiv Li{g)N, et nous montrons la consistance 
de I’ERM dans le cas de la MAPE: 
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Ce resultat a deja ete etabli pour certaines functions de pertes (MSE et MAE par 
exemple), mais ne pent etre generalise au cas de la MAPE car les proprietes necessitent 
I’hypothese de continuite uniforme au sens de Lipschitz (voir par exemple le lemme 17.6 
dans m), qui n’est pas verifiee dans le cas de la MAPE. 

La preuve proposee s’effectue en deux etapes. D’abord nous montrerons qu’il est 
possible de borner la probabilite a controler par une quantite dependant du Lp convening 
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number de la classe de modeles consideree. Puis, en controlant ce dernier par la VC- 
dimension de la classe de fonction consideree, nous verrons qu’il est possible, sous certaines 
hypotheses, d’assurer la consistance de la methode de minimisation du risque empirique. 


3.1 Lp convering numbers 

Etant donnee une classe de modeles Gn et une fonction de perte I, nous noterons 
H{Gn, 1) = {hX xR-)- M+, h{x, y) = l{g{x),y) \ g e Gat}, 


et 

H^(Gn, 1) = {h : X xMxR—)■ M'*', h(x, y, t) = '^t<i(g{x),y) \ 9 ^ Gn}. 

Lorsqu’il n’y a pas d’ambiguite compte tenu du contexte, nous simpliherons ces notations 
par Hn,mape pour I = Imape et la classe Gn consideree. 

Pour tout e > 0, une Cp-couverture de taille p d’une classe de fonctions T dehnies sur Z 
et a valeurs dans M’*' est une collection hnie /i,..., /p de telle que mini<j<p \\f — fi\\p,D < 
e pour tout / G et un jeu de donne D observe, on ||.||p designe la norme Lp. 

Le Lp covering number correspond an nombre de Cp-couverture de T et est note 
Mp{e^T , D). Comme pour tout hi, h 2 dans Hn,MAPE la quantite dehnie par 


||hi-h 2 ||oo= sup 

{x^y)^X xM 
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n’est en general pas bornee lorsque y tend vers 0, les resultats lies a la MSE et MAE 
ne sont pas applicables directement. Dans la suite nous supposerons done qu’il existe 
A > 0 tel que |y| > A 

En supposant que pour tout g G Gn, Us'IIoo < et |y| > A, on pent montrer que 
Bh{Gn,Imape) = 1 + et le theoreme 9.1 de [2] donne (avec Bn,i = Bh(Gn,i))- 


P|sup Li{g)N-Li{g) > ej < 8E ^^fp H{Gn,1), D] ) e 
Ce qui permet d’avoir une borne de la quantite a controler. 
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3.2 VC-dimension 

Une fagon de borner les covering numbers consiste a utiliser les VC-dimensions. On pent 
montrer k points sont separes par H~^{Gn,Imae) si, et seulement si, ils sont egalement 
separes par H~^{Gn, Imape)- En d’autres termes, la VC-dim de la classe de fonction 
consideree est inchangee selon que la fonction de perte est la MAE on la MAPE. D’apres 
le theoreme 9.4 de 0 , si v; = VCmAH*[GhJ)) > 2, p > 1, et 0 < 6 < on a alors 
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3.3 Consistance 


La consistance de I’algorithme ERM dans le cas de la MAPE pent etre montree de fagon 
similaire an theoreme 10.1 de [2]. Snpposons donnee nne serie de classe de modeles, 
{Gn)n>i telle qne Un>iGn est dense dans I’ensemble des fonctions mesnrables de dans 
R selon la norme ponr tonte mesnre p. Snpposons en ontre les Gn nniformement 

bornes par et de VC-dim finie 14 = VGdim{H~^{Gn,lMAPE))- Remarqnons qne, 
ponr qne ces conditions restent compatibles avec I’hypotliese de densite il est necessaire 
qne lim„^oo = oo et lim^^oo = oo. 

Alors, en snpposant qne |V| > A (presqne snrement) et qne lim^^oo 
on obtient a partir des eqnations [2] et [3l 
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Les hypotheses garantissent X]n>i-^(^A) < oo ponr tont e > 0, ce qni assnre la 
convergence presqne snre de LMAPE{giMAPE,n) vers LI^ape 
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